AI资讯新闻榜单内容搜索- transform

大模型哪里出问题、怎么修，这篇可解释性综述一次讲清

过去几年，机制可解释性（Mechanistic Interpretability）让研究者得以在 Transformer 这一 “黑盒” 里追踪信息如何流动、表征如何形成：从单个神经元到注意力头，再到跨层电路。但在很多场景里，研究者真正关心的不只是 “模型为什么这么答”，还包括 “能不能更稳、更准、更省，更安全”。

来自主题: AI技术研报

9888 点击 2026-01-28 10:13

LeCun、谢赛宁团队重磅论文：RAE能大规模文生图了，且比VAE更好

编辑｜Panda 在文生图模型的技术版图中，VAE 几乎已经成为共识。从 Stable Diffusion 到 FLUX，再到一系列扩散 Transformer，主流路线高度一致：先用 VAE 压缩视

来自主题: AI技术研报

6616 点击 2026-01-24 10:52

清华姚班校友刘壮团队再发力，无需归一化的Transformer性能进化

这篇新论文提出了一种非常简单的新激活层 Derf（Dynamic erf），让「无归一化（Normalization-Free）」的 Transformer 不仅能稳定训练，还在多个设置下性能超过了带 LayerNorm 的标准 Transformer。

来自主题: AI技术研报

7433 点击 2026-01-24 10:38

马斯克刚刚真把 𝕏 平台推荐算法给开源了，核心也是Transformer

刚刚，𝕏 平台（原 Twitter 平台）公布了全新的开源消息：已将全新的推荐算法开源，该算法由与 xAI 的 Grok 模型相同的 Transformer 架构驱动。

来自主题: AI技术研报

10031 点击 2026-01-21 10:40

对标GPT-4o和香蕉！浙大开源ContextGen：布局身份协同新SOTA

浙江大学ReLER团队开源ContextGen框架，攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构，通过双重注意力机制，实现布局精准锚定与身份高保真隔离，在基准测试中超越开源SOTA模型，对标GPT-4o等闭源系统，为定制化AI图像生成带来新突破。

来自主题: AI技术研报

8913 点击 2025-12-22 16:08

让扩散模型「可解释」不再降质，开启图片编辑新思路

过去三年，扩散模型席卷图像生成领域。以 DiT (Diffusion Transformer) 为代表的新一代架构不断刷新图像质量的极限，让模型愈发接近真实世界的视觉规律。

来自主题: AI技术研报

7369 点击 2025-12-16 16:27

NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法

在视觉处理任务中，Vision Transformers（ViTs）已发展成为主流架构。然而，近期研究表明，ViT 模型的密集特征中会出现部分与局部语义不一致的伪影（artifact），进而削弱模型在精细定位类任务中的性能表现。因此，如何在不耗费大量计算资源的前提下，保留 ViT 模型预训练核心信息并消除密集特征中的伪影？

来自主题: AI技术研报

7718 点击 2025-11-20 09:33